CODA-BENCH: Evaluación de agentes autónomos en tareas de datos Evalúa agentes de código con CODA-BENCH: 1009 tareas en entornos de datos masivos. Solo el 61% de éxito actual. Descubre las brechas en inteligencia artificial. 2026-06-16 · 2 min